在统计推断中,我们从观察单个数据点转向分析一个**统计量**——即样本序列的函数映射 $Y = h(X_1, X_2, \dots, X_n)$。由于底层样本由随机变量组成,该统计量本身也是一个随机变量,其概率规律被称为**抽样分布**。
统计量作为映射
统计量的形式定义为一个函数 $h: \mathbb{R}^n \to \mathbb{R}$。我们通过原像来定义统计量落入集合 $B$ 的概率:
$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$
独立同分布基础
对于一组独立同分布(i.i.d.)的随机变量样本,特定样本点 $(x_1, \dots, x_n)$ 的联合概率等于其边缘概率的乘积:$p(x_1)p(x_2)\dots p(x_n)$。该乘积在计算统计量取某一特定值的总概率时,充当每个样本点的权重。
例 4.1.1:几何平均数
考虑一个离散总体,其中 $p_X(1) = 1/2$,$p_X(2) = 1/4$,$p_X(3) = 1/4$。我们抽取大小为 $n=2$ 的样本 ($X_1, X_2$),并将统计量定义为几何平均数:$Y_2 = (X_1 X_2)^{1/2}$。
为了求出 $Y_2$ 的分布,我们列出所有 9 种可能的配对 $(X_1, X_2)$,计算它们的联合概率以及对应的 $Y_2$ 值:
| 配对 $(x_1, x_2)$ | 概率 $P(x_1)P(x_2)$ | $Y = \sqrt{x_1 x_2}$ |
|---|---|---|
| (1, 1) | 1/4 | 1.000 |
| (1, 2),(2, 1) | 1/8 + 1/8 = 1/4 | 1.414 |
| (1, 3),(3, 1) | 1/8 + 1/8 = 1/4 | 1.732 |
| (2, 2) | 1/16 | 2.000 |
| (2, 3),(3, 2) | 1/16 + 1/16 = 1/8 | 2.449 |
| (3, 3) | 1/16 | 3.000 |
精确分布与渐近分布
在进入中心极限定理(CLT)等极限定理之前,我们必须掌握“精确分布”。这包括在给定较小且有限的 $n$ 时,计算统计量的具体概率质量函数或密度函数。当解析形式难以处理时,我们转而使用数值模拟方法,如**蒙特卡洛近似**。
🎯 核心原则
抽样分布是某个独立同分布序列函数所对应的随机变量的分布。它是原始数据与科学推断之间的桥梁。